@容易被忽略的CTR/CVR Label优化
链接: 容易被忽略的CTR/CVR Label优化 - 知乎
延迟成交与延迟退货的建模本质上都是在解决一个问题,#card
那就是样本准确性与样本时效性的平衡,采用当天口径归因时效性较好
,但由于掺杂了部分伪负例会导致效果次优。
不过引入延迟反馈一般对当天指标提升有限,除非数据稀疏,Base较弱,
或大量延迟反馈是如外界事件中断所致,这些反馈本就应该在当天口径下发生。
向前归因:对当天成交关联过去N天点击,将回补的正例Union到当天样本 #card
优点是不影响当天样本时效性,
缺点是回补正例被当作过负例,有时需要通过重加权降低影响。
向后归因:对当天点击关联未来N天成交,因此样本会滞后N天的时间窗口,不过延迟成交通常呈长尾分布,取M<<N天即可关联大多数订单。#card
- 还有一种实践有效的方式是,分别关联未来N天,N-1天,…,1天,0天订单,模型A始终使用关联未来N天的样本训练,模型B则Warm A采用未来N-1->0天样本,在保持时效性的同时尽量减少伪负例的引入,是否有效取决于Gain(时效性)-Cost(准确性)。
多任务建模
- [[DEFER]] #card

+ [[ECAD]] #card

@容易被忽略的CTR/CVR Label优化
https://blog.xiang578.com/post/logseq/@容易被忽略的CTR_CVR Label优化.html